تحلیل مولفه های اصلی استوار برای داده های چوله

پایان نامه
چکیده

pca می تواند برای کاهش ابعاد داده مورد استفاد قرار بگیرد، به این ترتیب مولفه هایی از مجموعه داده را که بیشترین تأثیر در واریانس را دارند حفظ می کند. متأسفانه واریانس کلاسیک (که ماکزیمم می شود) و ماتریس کوواریانس کلاسیک (که تجزیه می شود) هر دو نسبت به دورافتاده ها یعنی مشاهداتی که از الگوی اکثریت داده ها پیروی نمی کنند، بسیار حساس اند. در نتیجه، اولین مولفه ها اغلب جذب نقاط دورافتاده می شوند، و ممکن است تغییرات مشاهدات عادی را ثبت نکنند. بنابراین، کاهش داده ها بر اساس pca کلاسیک (cpca) با وجود دورافتاده ها غیر واقعی می شود. به منظور مقاومت در مقابل نقاط دورافتاده به دنبال روش هایی هستیم که نسبت به این نقاط حساسیت کمتری دارند، این روش ها را روش های استوار می نامند. ساده ترین روش برای استوارسازی pca کلاسیک جایگزین کردن ماتریس کوواریانس نمونه ای با ماتریس کوواریانس استوار است . روش دیگری که برای تحلیل مولفه های اصلی استوار به کار می رود روش تعقیب تصویراست، به طور کلی این روش در جستجوی جهتی است که در آن مشاهدات تصویر شده بزرگترین مقیاس استوار را دارد. هوبرت و همکاران (2005) با ترکیب مز ایای روش های جایگزین کردن ماتریس کوواریانس نمونه ای با ماتریس کوواریانس استوار و تعقیب تصویر، الگوریتم سریعی برای تحلیل مولفه های استوار ارائه کرده اند. بدین صورت که ابتدا روش جستجوی تصویر را برای کاهش بعد به کار برده و سپس ایده برآوردگر کوواریانس استوار (mcd) را برای داده هایی که بعد آنها کاهش یافته است، استفاده می کنند. الگوریتم robpca روش pca استوار که آن را robpca می نامیم ترکیبی از عقیده ی تعقیب تصویر و برآورد کوواریانس استوار است، این روش در صورتی که داده ها از توزیع نرمال تولید شده باشند و در نتیجه متقارن باشند مورد استفاده قرار می گیرد. روش robpca ایده های تعقیب تصویر و برآورد کوواریانس استوار را ترکیب می کند. بخش تعقیب تصویر برای کاهش بعد اولیه استفاده می شود. سپس برخی ایده های برآوردگر mcd در این فضای داده ی کم بعد تر به کار می رود. روش ترکیبی برآورد های استوار تری از الگوریتم تعقیب تصویر اولیه فراهم می کند. این الگوریتم مرکب از قدم های زیر است: مرحله 1- ابتدا داده ها با کاهش فضای داده هایشان به زیرفضای تولید شده به وسیله n مشاهده، پیش پردازش می شوند . این امر به وسیله تجزیه مقدار تکین ماتریس داده مرکزی شده، اجرا می شود که به طور قطع لازم نیست، اما وقتی تعداد متغیرها از تعداد مشاهداتی که آنها قبلاً یک بعد بزرگ را نتیجه می داده اند تجاوز کند محدود می شود بدون اینکه اطلاعاتی را از دست بدهد. x_(n,p)-1_n ? ?_0^=u_(nr_0 ) d_(r_0 r_0 ) v_(r_0 p) به طوری که ? ?_0 بردار میانگین کلاسیک، r_0=rank(x_(n,p)-1_n ? ?_0^) ، d ماتریس قطری r_0×r_0 و u^ u=i_(r_0 )=vv ، وقتی i_(r_0 ) ماتریس همانی r_0×r_0 می باشند. اکنون بدون از دست دادن کلیت، روی زیرفضای تولید شده به وسیلهr_0 ستون ماتریس v کار می شود. یعنی، z_(n,r_0 )=ud ماتریس داده جدید می شود. لازم به ذکر است که این تجزیه مقدار تکین تنها تبدیل افاین داده ها است مرحله 2- انتخاب مقدار پوششی 1/21 و ±?(?_(k,0.975)^2 ) وقتی k=1 می باشد (زیرا مربع فواصل ماهالانوبیس امتیازهای به طور نرمال توزیع شده، به طور تقریبی دارای توزیع ?_k^2 اند). تشخیص برش روی محور عمودی دشوارتر است، زیرا توزیع فواصل متعامد دقیقاً شناخته شده نیست. تشخیص دور افتاده ها برای داده های عادی و چوله چندین قانون برای مشخص کردن نقاط دورافتاده در داده ها است که بر اساس فواصل مختلف یا معیارهای دورافتادگی در هر نقطه داده ای محاسبه می شوند. این قوانین رد متناظر است با مشخص کردن همه نقاطی که دورافتادگی آنها از یک مقدار برش مشخص تجاوز می کند. نخستین قانون رد که آن را با نماد rr[rd] نمایش می دهیم، از فاصله استوار در بین هر نقطه و مرکز ابر داده ها استفاده می کند. rd_i=?((x_i-?)^ ?^(-1) (x_i-?) ) i=1,2,…,n در این فاصله به جای ?، ? از برآوردگر های مکان و پراکندگی ماتریس کوواریانس با کمترین دترمینان (mcd) استفاده می کنیم، که در نتیجه یک فاصله استوار داریم که از دورافتاده های ممکن تأثیر نمی پذیرند. مجذور فاصله rd_i به طور تقریبی دارای توزیع?^2 با p درجه آزادی است، پس هر مشاهده ای که rd_i بزرگی دارد، را می توان به عنوان یک مشاهده ی دور افتاده در نظر گرفت. دومین قانون رد بر اساس معیار دورافتادگی استاهل- دانهو است که با rr[sd] نمایش داده می شود و به صورت زیر تعریف می شود. outl(x_i,x)=max?(v?b)??|?x^?_i v-med_j (?x^?_j v)|/(mad_k (?x^?_j v) )? مجموعه b شامل تمام جهاتی است که در بین دو نقطه داده ای که به صورت تصادفی از بین n نقطه انتخاب شده اند، وجود دارد. به منظور کاهش زمان محاسبات تنها 250 جهت را تولید می کنیم. مجذور این فاصله نیز به طور تقریبی دارای توزیع?^2 با p درجه آزادی است. به دنبال یک توزیع نرمال چند متغیره، یا حداقل یک توزیع بیضوی هر دو روش rr[sd] و rr[rd] زمانی مناسبند که داده ها غیر آلوده اند (دور افتاده نیستند)، این قوانین وقتی داده ها از توزیع چوله بیایند نقاط زیادی را به غلط به عنوان نقطه دور افتاده مشخص می کنند، به این دلیل ترجیح می دهیم از قوانینی استفاده کنیم که فرض تقارن را برای توزیع در نظر نمی گیرد که در این صورت برای داده های چوله نیز مناسب است. بنابراین روش rr[sd] را با استفاده از نتایج نمودار جعبه ای تعدیل یافته تنظیم می کنیم. سومین قانون رد که با اصلاح قانون رد rr[sd] با استفاده از نمودار جعبه ای تعدیل یافته به دست آمده را با نماد rr[ao] نمایش می دهیم. در اینجا با توجه به فاصله [c_1,c_2 ]، که c_1 متناظر است با کوچکترین مشاهده که بلافاصله بزرگ تر است از q_1-1.5e^(-4mc) iqr و c_2 متناظر با بزرگ ترین مشاهده که بلافاصله کوچکتر از q_3+1.5e^3mc iqr است، دورافتادگی تعدیل یافته (ao) که مخرجی متفاوت از روش rr[sd] دارد به صورت زیر تعریف می شود: ao_i=?max?_v?b |?x?_i v-med(?x?_j v)|/((c_2 (v)-med(?x^?_j v))i[?x^?_i v>med(?x^?_j v)]+(med(?x^?_j v)-c_1 (v))i[?x^?_i vmed(?x^?_j v)]+(med(?x^?_j v)-c_1 (v))i[?x^?_i v<med(?x^?_j v)])? که c_1 متناظر است با کوچک ترین مشاهده ای که بزرگ تر است از q_1-1.5e^(-4mc) iqr و c_2 متناظر است با بزرگ ترین مشاهده ای که کوچک تر است از q_3+1.5e^3mc iqr. در اینجا q_1 و q_3 اولین و سومین چارک داده های تصویر شده می باشد، iqr=q_3-q_1 و mc میانه ی دو گانه، یک معیار استوار چولگی می باشد. این فرمول فرض می کند که mc?0 است، در غیر اینصورت ما v را با –v جایگزین می کنیم. اصلاحیه دوم مربوط به مقدار میان بر برای فواصل متعامد od در گام پنجم است. ما حالا استفاده می کنیم به عنوان مقدار میان بزرگترین od_i کوچکتر از q_3 ({od})+1.5e^3mc({od}) iqr{od}). با انجام این کار داده ها بیش از این لازم نیست که تبدیل بشوند، و حال بیشتر مقدار میان بر وابسته به خود داده ها به جای بعضی مقادیر تفکیک شده است. اصلاحیه سوم در گام 6 اتفاق می افتد. به جای استفاده از برآوردگر های mcd بازموزون، ما دورافتاده های تعدیل شده در زیر فضای k بعدی v_1، را محاسبه می کنیم و ماتریس میانگین و کوواریانس از h نقطه با کمترین دورافتاده های تعدیل شده را نیز محاسبه می کنیم. شبیه سازی با استفاده از کتابخانه ی libra از نرم افزار matlab انجام می شود. شبیه سازی نشان می دهد که با هر درصد از آلودگی robpca اصلاح شده، زمانی که داده ها نامتقارن باشند نتایج بهتری از سایر روشها دارد. و robpca اصلاح شده و معمولی در حالی داده ها متقارن باشند نتایج تقریبا یکسانی دارد.

منابع مشابه

تحلیل استوار داده های فضایی در حضور داده های دورافتاده

معمولاً تابع تغییرنگار که ساختار همبستگی داده­های فضایی را تعیین می­کند و نقش پایه­ ای در تحلیل آن­ها دارد، نامعلوم است و لازم است براساس مشاهدات برآورد شود. وجود داده­ های دورافتاده در مشاهدات تاثیر نامناسبی در برآورد تغییرنگار و سایر بخش­های تحلیل داده­های فضایی همچون پیش­گویی فضایی و برآورد پارامترهای روند دارد. در این مقاله ابتدا با استفاده از برآوردگرهای مقیاس، چند برآوردگر استوار جدید با ن...

متن کامل

تحلیل مولفه¬های اصلی مشخصات بارش سالانه شهر زنجان

تحلیل مولفه­های اصلی یک روش بهینه ریاضی برای کاهش حجم داده­ها و تبدیل متغیرهای اولیه به چند مولفه محدود است به­طوری که این چند مولفه بیشترین پراش متغیرهای اولیه را توجیه نماید. در این مطالعه برخی مشخصات آماری بارش سالانه شهر زنجان شامل مجموع بارش سالانه، تعداد روزهای بارانی، بزرگ­ترین بارش روزانه در سال، نسبت بارش بیشینه به مجموع بارش سالانه و مشخصاتی از قبیل انحراف معیار، چولگی، کشیدگی، میانگی...

متن کامل

طراحی الگوی ارزیابی عملکرد گروه های کاری: تبیین و بسط الگوی تحلیل پوششی داده های استوار

روشها و ابزار ارزیابی عملکرد همواره یکی از مباحث مهم در تحقیقات سازمانی و آکادمیک است. از طرفی توان الگوهای تحلیل پوششی داده ها در ارزیابی عملکرد سبب شده است تحقیقات وسیعی در حوزه های علمی مختلف صورت گیرد. یکی از نکات بسیار مهم در بکارگیری تحلیل پوششی داده ها وجود عدم قطعیت در داده های مربوط به نهاده ها و ستانده ها می باشد. در این تحقیق یک الگوی تحلیل پوششی داده های استوار برای در نظر گرفتن عد...

متن کامل

تحلیل دوسطحی با اثرات تصادفی چوله نرمال و مدل بندی داده های طولی

مدل سازی داده های دوسطحی با فرض نرمال بودن مولفه تصادفی و خطا انجام می شود. عدم برقراری این فرض باعث استنباط غلط در مورد پارامترهای مدل می گردد. در این مقاله، استفاده از خانواده توزیع چوله نرمال که خانواده ای انعطاف پذیرتر از توزیع نرمال است مطرح می شود. سپس در یک مطالعه شبیه سازی نشان داده می شود عدم در نظر گرفتن چولگی مثبت (منفی) در مدل باعث بیش برآوردی (کم برآوردی) عرض از مبدا و کم برآورد...

متن کامل

تحلیل رتبه رقابت پذیری مکانی شهری مراکز استان های ایران بر پایه تحلیل مولفه اصلی (PCA)

باوجود پیچیده بودن مفهوم رقابت پذیری، هدف آن تا حدودی مشخص و قابلیت برتری یافتن بر سایر رقبا می باشد. چهار مولفه رقابت پذیری شهری عبارتند از: اقتصادی، اجتماعی- فرهنگی، محیطی و مکانی. هدف کلی در این تحقیق شناسایی عوامل موثر بر ارتقاء رقابت پذیری مکانی شهری می باشد. از دیدگاه سازمان ملل سه روش مختلف برای معلوم کردن عوامل واقعی رقابت پذیری شهری وجود دارند. با توجه به پارادایم تحقیق، که اثبات­گرایی...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه پیام نور - دانشگاه پیام نور استان تهران - دانشکده علوم پایه

کلمات کلیدی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023